查看原文
其他

视频生成领域最新开源!360AI 研究院提出 FancyVideo:在消费级显卡上定制你的 AI 视频!

DataFunTalk
2024-09-11

导读 

由 360AI 研究院和中山大学联合提出的 FancyVideo 是一种基于 UNet 架构的视频生成模型。该模型同时具备文生视频和图生视频功能,在消费级显卡(如 GeForce RTX 3090)上最高可生成 125 帧 1080p 的视频。此外,该模型还具备下述特点:可生成任意分辨率、宽高比的视频;可基于不同 SD 底模生成不同风格化的视频;可人工控制视频生成的运动幅度;衍生模型可完成视频扩展 & 回溯的功能。妥妥的商业化神器有木有?!然鹅,该项目已经完全开开开开源了!什么情况?!话不多说:看效果:https://360cvgroup.github.io/FancyVideo/读论文:https://arxiv.org/abs/2408.08189扒代码:https://github.com/360CVGroup/FancyVideo主要包括以下几大部分:

1. 论文摘要

2. 论文方法

3. 论文实验

4. 生成效果

5. 结论

分享嘉宾|Ao Ma

出品社区|DataFun


01

论文摘要

合成运动丰富且时序一致的视频仍是 AI 领域的挑战之一。现有的文本到视频(T2V)模型通常采用空间交叉注意力进行文本控制,将文本等价地引导至不同帧的生成过程中,缺乏对于不同帧的灵活性文本引导。因此,模型理解提示词所传达的时间逻辑和生成具有连续运动视频的能力受到限制。为解决这一限制,我们提出了一种新的视频生成模型:FancyVideo。它通过特别设计的跨帧文本引导模块(Cross-frame Textual Guidance Module, CTGM, 如下图)改进了现有文本控制机制。具体来说,CTGM 分别在交叉注意力的开始、中间和结束处引入了时序信息注入器(Temporal Information Injector, TII)、时序特征提取器(Temporal Affinity Refiner, TAR)和时序特征增强器(Temporal Feature Booster, TFB),以实现特定框架的文本引导。首先,TII 将来自潜在特征的帧特定信息注入文本条件中,从而获得跨帧文本条件。然后,TAR 沿着时间维度细化跨帧文本条件与潜在特征之间的相关矩阵。最后,TFB 增强了潜在特征的时间一致性。经过大量的定量实验和定性评估,证明了 Fancy Video 的有效性。

02

论文方法

FancyVideo 整体 Pipeline 如上图。该方法选择了在 2D T2I 模型基础上插入时序层和运动性模块的方式构造 3D T2V 模型。为保存原有 T2I 模型能力,T2V 模型在生成视频时先基于 T2I 模型生成首帧,再进行 I2V 操作。这样做好处是,一方面生成视频整体画质更高;另一方面所需训练数据量和训练代价更低。在进行运动性模块计算时,FancyVideo 采用特别设计的跨帧文本引导模块(CTGM),这大大提高了生成视频的运动性和时序一致性。

此外,FancyVideo 在训练时将基于 RAFT 提取的视频运动信息(motion score)和 time embedding 一起注入到网络中,从而实现对运动幅度的控制;为生成更多连续帧,FancyVideo 采用了 CV-VAE 对视频进行编解码;为生成更高分辨率的视频且保留原本 SD 1.5 的能力,FancyVideo 引入了 Res-Adapter对SD 1.5 进行了"武装"。FancyVideo 采用了 10M 开源数据 WebVid 和 4M 自研数据训练模型即获得了运动丰富且一致性强的视频结果。

03

论文实验

论文在 EvalCrafter Benchmark 上定量比较了 FancyVideo 模型和一众其他 T2V 模型,可以看到 FancyVideo 在视频生成质量、文本一致性、运动性和时序一致性方面均处于领先位置。

论文还在 UCF-101 和 MSR-VTT Benchmark 上进行了 Zero-shot 的评测,在衡量生成视频丰富性的 IS 指标和文本一致性的 CLIPSIM 指标均取得了 SOTA 结果。

此外,论文还基于 FancyVideo 模型的 T2V 和 I2V 能力分别和前人方法进行了人工评测,结果显示在视频生成质量、文本一致性、运动性和时序一致性角度 FancyVideo 均处于领先。

最后,论文中采用消融实验探究了 CTGM 的不同子模块对于视频生成结果的影响,以验证各个子模块的合理性和有效性。

04

生成效果

基于已经开源的 61-frame 模型在 RTX 3090 上进行推理,按照 25fps 输出,生成视频如下:

生成不同分辨率的视频:

61* 768 * 768

A happy elephant wearing a birthday hat walking under the sea.

61* 1024 * 768

Teddy bear surfer rides the wave in the tropics.

61* 768* 1024

Impressionist style, a yellow rubber duck floating on the wave on the sunset.

61* 1024 * 1024

A confused grizzly bear in calculus class.

基于不同 SD 1.5 底模生成不同风格的视频:

Realcartoon3d

Girl with really wild hair,mane,multicolored hairlighting,(from front:0.6).

22 years old Spanish woman, medium breast,wearing flowing dress,golden brown flowing hair glamour

Toonyou

1girl, collarbone, wavy hair, looking at viewer, blurry foreground, upper body, necklace, contemporary, plain pants, ((intricate, print, pattern)), ponytail, freckles, red hair, dappled sunlight, smile, happy,

(masterpiece, best quality), 1boy, jacket, beard, walking, beanie, sunglasses, ((from below, looking up, fisheye)), upper body, wasteland, sunset, solo focus, cloudy sky, backpack, hands in pockets

PixarsRendman

(pixarstyle), masterpiece, best quality, 1woman, Ebony, 35-years-old, closeup shot, in red elegant dress, [jazz club]

(pixarstyle), masterpiece, best quality, a shady businessman with a briefcase at a back alley

05

结论

相比于目前大火的 SORA 类视频生成模型,FancyVideo 显得更"经济实惠"。此外,FancyVideo 具有很强的扩展性且可以充分利用 SD 社区的能力。然而,受限于模型本身能力、Video VAE 性能、训练数据等因素的影响,FancyVideo 在测试更高分辨率和更多帧的情况下不可避免地出现了畸变扭曲等现象。相信随着工作的开源,在社区的力量下,该模型在未来会解决这些问题。
以上就是本次分享的内容,谢谢大家。

往期推荐


大模型可以撞破金融落地的天花板吗?

EasyRec 推荐算法训练推理优化

无需等待:电商领域重排模型在线学习可以先于用户反馈

增强大模型智能:数学推理能力的提升策略与实践

Data+AI 一体架构的产品创新

数据产品方法论:踩坑与超越!

Apache Paimon 实时湖仓存储底座

LLM+RAG:大模型在金融场景的落地探索

95% 向量资源节省,火山引擎云搜索 RAG 技术体系演进

天穹数仓自治能力在大模型时代的新实践

点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个
DataFunTalk
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存